1
บทนำสู่การรับรู้ด้วยคอมพิวเตอร์และการประมวลผลภาพดิจิทัล
มหาวิทยาลัยโพลีเทคนิคฮ่องกง รหัสวิชา: COMP5511ตอนที่ 8
00:00

บทนำสู่การรับรู้ด้วยคอมพิวเตอร์และการประมวลผลภาพดิจิทัล

การรับรู้ด้วยคอมพิวเตอร์ คือสาขาวิชาปัญญาประดิษฐ์ที่ทำให้คอมพิวเตอร์สามารถสร้างข้อมูลที่มีความหมายจากภาพและวิดีโอดิจิทัลได้อย่างมีประสิทธิภาพ โดยพยายามลดช่องว่างทางความหมายระหว่างข้อมูลพิกเซลแบบดิจิทัลกับความเข้าใจในระดับมนุษย์ช่องว่างทางความหมาย ระหว่างข้อมูลพิกเซลดิบและแนวคิดที่มนุษย์เข้าใจการประมวลผลภาพดิจิทัล เป็นโครงสร้างพื้นฐานของระบบการรับรู้ด้วยคอมพิวเตอร์ โดยเน้นการปรับเปลี่ยนและปรับปรุงสัญญาณภาพผ่านการแปลงพิกเซลเป็นพิกเซล เพื่อเตรียมข้อมูลสำหรับงานวิเคราะห์เชิงลึกในระดับต่อไป

หลักการสำคัญ

  • การแทนข้อมูล: ที่ระดับเครื่องจักร ภาพจะเป็น เทนเซอร์ มากกว่าภาพรวม ภาพขาวดำเป็นเมทริกซ์ 2 มิติของค่าความเข้ม ขณะที่ภาพสีเป็นเทนเซอร์ 3 มิติที่แสดงช่องสีแดง เขียว และน้ำเงิน (RGB) พร้อมมีขนาด $H \times W \times 3$
  • การเปลี่ยนรูปแบบเทียบกับการตีความ: การประมวลผลภาพดิจิทัลเน้นงานที่แปลงภาพเป็นภาพ เช่น การลดเสียงรบกวน การเพิ่มความคมชัด หรือการปรับสมดุลฮิสโตแกรม ส่วนการรับรู้ด้วยคอมพิวเตอร์เน้นงานที่แปลงภาพเป็นความรู้ เช่น การจำแนกประเภทวัตถุ การระบุตำแหน่ง และการแบ่งภาพ
  • แนวทางกลับด้านของการสร้างภาพ: การรับรู้ด้วยคอมพิวเตอร์สามารถมองได้ว่าเป็นการกลับด้านของกราฟิกส์คอมพิวเตอร์ ในขณะที่กราฟิกส์พยายามสร้างโลกที่มองเห็นได้จากโมเดลทางคณิตศาสตร์ การรับรู้ด้วยคอมพิวเตอร์พยายามคืนค่าโครงสร้าง 3 มิติและป้ายกำกับเชิงความหมายจากภาพฉาย 2 มิติ
ความท้าทายหลัก
ความท้าทายหลักในสาขานี้คือ ช่องว่างทางความหมาย ซึ่งเป็นช่องว่างระหว่างค่าพิกเซลระดับต่ำที่เครื่องจักรประมวลผล กับแนวคิดระดับสูงที่มนุษย์เข้าใจ
ตัวอย่างการเขียนโปรแกรมด้วยภาษาไพธอน
คำถามข้อที่ 1
กระบวนการใดจัดอยู่ในประเภทการแปลงภาพเป็นความรู้?
การประมวลผลภาพดิจิทัล
การรับรู้ด้วยคอมพิวเตอร์
กราฟิกส์คอมพิวเตอร์
การปรับสมดุลฮิสโตแกรม
คำถามข้อที่ 2
ที่ระดับเครื่องจักร โครงสร้างข้อมูลของภาพสีมาตรฐานคืออะไร?
เมทริกซ์ 2 มิติ
อาร์เรย์ 1 มิติ
เทนเซอร์ 3 มิติ / ช่องสี RGB
ลิสต์แบบเชื่อมโยง
กรณีศึกษา: ระบบวินิจฉัยทางการแพทย์
อ่านสถานการณ์ด้านล่างแล้วตอบคำถาม
โรงพยาบาลกำลังพัฒนาเทคโนโลยีระบบวินิจฉัยทางการแพทย์อัตโนมัติใหม่ เพื่อวิเคราะห์ภาพเอกซเรย์เพื่อตรวจหากระดูกหัก ระบบจะประมวลผลข้อมูลดิบจากเครื่องเอกซเรย์และส่งรายงานวินิจฉัยให้กับแพทย์ที่ทำการตรวจ
คำถาม
1. หากระบบใช้การเพิ่มคอนทราสต์เพื่อให้โครงสร้างกระดูกชัดเจนขึ้น นี่คือการประมวลผลภาพดิจิทัล (DIP) หรือการรับรู้ด้วยคอมพิวเตอร์ (CV)?
คำตอบ:
การประมวลผลภาพดิจิทัล การเพิ่มคอนทราสต์เป็นการแปลงภาพเป็นภาพที่ช่วยปรับปรุงคุณภาพภาพโดยไม่ต้องดึงความหมายเชิงความหมาย
คำถาม
2. หากระบบแจ้งเตือนพื้นที่เฉพาะว่าอาจมีกระดูกหัก ระบบกำลังทำหน้าที่อะไร?
คำตอบ:
การรับรู้ด้วยคอมพิวเตอร์ / การตรวจจับวัตถุ ระบบกำลังตีความเนื้อหาภาพเพื่อดึงความรู้ระดับสูง (ระบุตำแหน่งกระดูกหัก)
คำถาม
3. ทำไมการลดเสียงรบกวนจึงจำเป็นก่อนใช้อัลกอริธึมตรวจจับ?
คำตอบ:
เพื่อปรับปรุงคุณภาพสัญญาณและลดจำนวนผลลัพธ์ที่ผิดพลาดในขั้นตอนการตีความเชิงความหมาย เสียงรบกวนอาจถูกตีความผิดโดยอัลกอริธึม CV ว่าเป็นลักษณะจริงหรือขอบจริง